AMD ZEN 마이크로아키텍처 (문단 편집)

=== 성능 ===
[[파일:345EOgh.jpg]]

AMD에서 공식 발표한 바에 따르면 엑스카베이터 대비 [[IPC]](엄밀히 따지면, IPC가 아니라 클럭당 성능)를[* IPC는 [[응용 소프트웨어]]와 무관하게 CPU 코어가 지니는 이론적인 클럭당 성능으로, 실제 클럭당 성능과 다르다. 이에 관한 자세한 내용은 IPC 문서 참조.] '''40%''' 향상을 목표로 했으며 결과적으로 '''52%'''의 향상을 이루어 냈다.
초기에 기존 CPU 대비 40% 향상이 목표라고 알려졌을 때에는 기존 파일드라이버 마이크로아키텍처에 단순히 1.4배를 곱하여 대략 경쟁사의 3세대 [[아이비브릿지]] 수준의 성능일 것으로 전망하였으나, 이후 파일드라이버 기준이 아닌 엑스카베이터 기준 40% 향상인 것으로 밝혀지면서 [[브로드웰]] 급으로 기대치가 상승하였다. 실사용에서는 아닐지 몰라도, 의외로 일부 벤치에서는 아이비브릿지와 비슷한 벤지마킹 점수를 기록했기 때문에 브로드웰급으로 예상치가 올라가게 되었다. 이후 엠바고가 풀리고 공식 발표에서는 목표인 40%를 뛰어넘어 52%의 클럭당 성능 향상으로 초과 달성했다고 발표되었다.

2017년 3월에 클럭당 성능 향상폭에 대해서 보다 구체적인 사항이 발표 되었는데 전체적으로는 엑스카베이터 대비 52% 올라간 것이 공식적으로 발표 되었다. 보다 세부적인 향상률은 다음과 같다.
 * [[SPEC2006|SPECInt_base2006]]기준 정수연산 향상률: 파일드라이버 대비 52%, 엑스카베이터 대비 64%[* 오타가 아니다. 실제 자료에 그렇게 명기되어 있다.] 상승.
 * Cinebench R15 단일스레드 실행 기준 벡터연산[* Cinebench R15는 벡터명령어인 SSE, AVX 명령어 세트에 크게 의존적이다.] 향상률: 파일드라이버 대비 76%, 엑스카베이터 대비 64% 상승.
즉 어느 숫자를 보더라도 52%는 여러 케이스 중에서 가장 낮은 --힘숨찐-- 수치인 것이다.

재미있는 건 인텔이 발표한 제온 스케일러블 시리즈의 최대 코어는 28코어이고, AMD가 발표한 EPYC 시리즈의 최대 코어는 32코어인데, 둘을 같은 면적이라고 가정하면 코어당 14% 정도의 차이가 나온다. 그리고 스카이레이크에서 10-15% 가량을 줄이면 브로드웰이다. 물론 클럭당 성능이라는 게 완벽하게 고정불변한 절대값은 아니므로, 사용하는 프로그램이나 환경에 따라 클럭당 성능 격차가 더 벌어지거나 좁혀질 수 있음을 명심하자.

데스크톱 라인업인 서밋 릿지인 경우, 불도저에서 이어져 온 4모듈-8코어-8스레드 구성에서 [[하이퍼스레딩|8코어-16스레드 구성]]으로 바뀌면서 스레드 기준 2배가 증가하게 된다. 이런 구성이면 양쪽 클럭이 동일하다고 가정할 경우 스카이레이크 기반 4코어-8스레드 코어 i7 시리즈에 대해서 싱글스레드 성능은 불과 10% 정도 떨어지지만 멀티스레드 성능은 2배에 달하는 코어 숫자를 이용해 1.7~1.8배 정도 우위를 점하면서 제품경쟁력을 높일 수 있다.

AMD의 공식 발표에 의하면 [[Blender]]에서 Intel Core i7-6900K와 AMD RYZEN 7 1800X (추정)의 같은 코어 개수, 같은 스레드 개수, 같은 3 GHz 클럭 환경에서 근소하게 앞서는 클럭당 성능을 보여주고 있어, 추후 QS이후의 리테일 제품의 클럭이 성능을 결정 지을 것으로 보인다. 하지만 해당 테스트에 관해서 [[인텔]] 엔지니어인 François Piednoël은 [[https://twitter.com/FPiednoel/status/766376065224757249|'FMA3 명령어로 실행하는 것으로 보이며, L1, L2, L3 캐시의 사이즈가 다르므로 클럭당 성능 비교는 무의미하다'는 글]]을 올렸다. 하지만 '''브로드웰은 FMA3 명령어를 256-bit 데이터 폭으로 동시에 두 개, 2배의 스루풋으로 처리할 수 있는데 비해 ZEN은 FMA 명령어를 128-bit 데이터 폭으로 동시에 처리할 수 있어서''' 단순 스루풋 기준으로는 '''브로드웰이 두 배로 빨라야 정상이다.''' 게다가 브로드웰의 캐시 데이터폭은 ZEN의 2배로, 정확히 FMA3 명령어의 입출력값을 뒷받침해 줄 수 있도록 확장되어 있다. 즉 [[Blender]]의 코드가 FMA3명령어 의존적이라는 주장이 맞다면 오히려 ZEN의 FMA 연산에서의 아키텍처 효율이 단순 스펙에서 드러나는 것보다 훨씬 더 좋다는 이야기가 된다. 캐시 크기가 달라서 클럭당 성능 측정으로서는 의미 없다는 주장 자체가 큰 의미가 없는데, 애초에 성능 위주의 프로그램들은 캐시 미스로 인한 패널티를 피하기 위해 각 단계별 캐시 크기에 맞도록 코드나 데이터 사이즈를 조정해서 로드하는 경우가 많으며 캐시대역폭 역시 브로드웰이 2배이다.

결국 ZEN이 실제로 공개되고 난 이후 ZEN의 여러 벤치마크 성능이 클럭대 클럭으로도 브로드웰과 동급이라는 것이 밝혀진 후로는 저러한 장황한 설명이 무의미해지고 말았지만...

저장 버튼을 클릭하면 당신이 기여한 내용을 CC-BY-NC-SA 2.0 KR으로 배포하고,
기여한 문서에 대한 하이퍼링크나 URL을 이용하여 저작자 표시를 하는 것으로 충분하다는 데 동의하는 것입니다.
이 동의는 철회할 수 없습니다.

AMD ZEN 마이크로아키텍처 (문단 편집)

캡챠